IR models using a pretrained language model significantly outperform lexical approaches like BM25. In particular, SPLADE, which encodes texts to sparse vectors, is an effective model for practical use because it shows robustness to out-of-domain datasets. However, SPLADE still struggles with exact matching of low-frequency words in training data. In addition, domain shifts in vocabulary and word frequencies deteriorate the IR performance of SPLADE. Because supervision data are scarce in the target domain, addressing the domain shifts without supervision data is necessary. This paper proposes an unsupervised domain adaptation method by filling vocabulary and word-frequency gaps. First, we expand a vocabulary and execute continual pretraining with a masked language model on a corpus of the target domain. Then, we multiply SPLADE-encoded sparse vectors by inverse document frequency weights to consider the importance of documents with lowfrequency words. We conducted experiments using our method on datasets with a large vocabulary gap from a source domain. We show that our method outperforms the present stateof-the-art domain adaptation method. In addition, our method achieves state-of-the-art results, combined with BM25.
translated by 谷歌翻译
非自动回旋(NAR)模型的计算能力比自回归模型较少,但牺牲生成质量可以生成句子。先前的研究通过迭代解码解决了这个问题。这项研究建议将最近的邻居用作NAR解码器的初始状态,并迭代编辑。我们提出了一种新颖的培训策略,以了解有关邻居的编辑操作,以改善NAR文本生成。实验结果表明,所提出的方法(邻域)在JRC-ACQUISIE EN-DE DATASET上获得了更高的翻译质量(比香草变压器高1.69点(比香草变压器高1.69点),而解码迭代率较少(少于十分之一)使用最近的邻居翻译。我们还确认了所提出的方法对数据到文本任务(Wikibio)的有效性。此外,所提出的方法在WMT'14 EN-DE数据集上优于NAR基线。我们还报告了建议方法中使用的邻居示例的分析。
translated by 谷歌翻译
变压器的令人印象深刻的性能归因于自我注意力,在每个位置都考虑了整个输入之间的依赖性。在这项工作中,我们改革了神经$ n $ gram模型,该模型仅着眼于每个位置的几个周围表示,其多头机制如Vaswani等人(2017年)。通过对序列到序列任务的实验,我们表明,用多头神经$ n $ gram在变压器中替换自我注意力可以比变压器实现可比性或更好的性能。从对我们提出的方法的各种分析中,我们发现多头神经$ n $ gram是互补的,它们的组合可以进一步提高香草变压器的性能。
translated by 谷歌翻译
我们研究了掩盖语言模型(MLMS)的任务无关内在和特定于任务的外在社会偏见评估措施之间的关系,并发现这两种评估措施之间仅存在弱相关性。此外,我们发现在下游任务进行微调期间,使用不同方法的MLMS DEBIAS进行了重新划分。我们确定两个培训实例中的社会偏见及其分配的标签是内在偏见评估测量值之间差异的原因。总体而言,我们的发现突出了现有的MLM偏见评估措施的局限性,并提出了使用这些措施在下游应用程序中部署MLM的担忧。
translated by 谷歌翻译
逻辑自然语言生成,即生成可以由结构化表所需的文本描述,这是由于生成的低保真度导致的挑战。 CiteT {Chen2020Logic2Text}通过注释临时逻辑程序来控制生成内容和语义来解决此问题,并将表感知逻辑表单的任务呈现给文本(logic2text)生成。然而,虽然表实例在现实世界中丰富,但与文本描述配对的逻辑形式需要昂贵的人类注释工作,这限制了神经模型的性能。为了缓解此方法,我们提出了主题条件的数据增强(主题D),它利用GPT-2直接从表中生成未配对的逻辑表单和文本描述。我们进一步引入了逻辑表单生成(LG),Logic2Text的双重任务,要求基于表的文本描述生成有效的逻辑表单。我们还提出了一种半监督的学习方法,共同列车,并使用标记和增强数据共同列车和LG模型。通过回平翻译,这两个模型通过提供额外的监督信号来互相受益。 LOGIC2TEXT数据集的实验结果和LG任务表明,我们的方法可以通过大幅保证金有效地利用增强数据和优于监督的基线。
translated by 谷歌翻译
有一段漫长的历史,努力与我们周围的实体和空间探索音乐元素,例如Musique Concr \'Ete和Ambient Music。在计算机音乐和数字艺术的背景下,还设计了集中在周围物体和物理空间上的互动体验。近年来,随着设备的开发和普及,在扩展现实中设计了越来越多的作品,以创造这种音乐体验。在本文中,我们描述了MR4MR,这是一项声音安装工作,使用户可以在混合现实的背景下体验与周围空间相互作用产生的旋律(MR)。用户使用HoloLens,用户可以撞击周围环境中真实对象的虚拟对象。然后,通过遵循物体发出的声音并使用音乐生成机器学习模型进行随机变化并逐渐改变旋律的声音,用户可以感觉到其环境旋律“转世”。
translated by 谷歌翻译
本文提出了一个新颖的框架,以根据权威的睡眠医学指导自动捕获人睡眠的脑电图(EEG)信号的时间频率。该框架由两个部分组成:第一部分通过将输入EEG频谱图将其划分为一系列时频贴片来提取信息特征。第二部分是由基于注意力的体系结构有效地搜索分配的时频贴片和并行睡眠阶段定义因素之间的相关性构成的。拟议的管道在Sleep Heart Health研究数据集上进行了验证,其阶段唤醒,N2和N3的新最新结果获得了相应的F1分数为0.93、0.88和0.87,仅使用EEG信号。该提出的方法还具有高评分者间可靠性为0.80 kappa。我们还可以看到睡眠分期决策与提出方法提取的特征之间的对应关系,为我们的模型提供了强大的解释性。
translated by 谷歌翻译
在语音交流中,如何说某物(副语言信息)与所说的(语言信息)至关重要。作为一种副语言信息,英语语音使用句子压力,这是句子中最重的突出,以传达重点。尽管句子压力的不同放置会传达出不同的强调含义,但如果话语在语言上相同,丢失了副语言信息,那么当前的语音翻译系统会返回相同的翻译。专注于重点,一种重点,我们建议使用词汇和语法设备将副语言信息映射到源语言中的语言领域。此方法使我们能够翻译释义的文本表示,而不是原始语音的转录,并获得保留副语言信息的翻译。作为第一步,我们介绍了一个英语语料库的集合,其中包含语音,该语音在焦点的放置以及相应的文本中不同,该文本旨在反映演讲的隐含含义。同样,对我们的语料库的分析表明,从副语言领域映射到语言领域涉及各种词汇和语法方法。我们分析的数据和见解将进一步提高对副语言翻译的研究。该语料库将通过最不发达国家和我们的网站发布。
translated by 谷歌翻译